Voici la Boîte à Outils 1
"Extraction"

Le but de la Boîte à Outils 1, c'est d'extraire les TITRES et les DESCRIPTIONS des fichiers RSS

Voici une partie du script PERL qui réalise cette tâche:

extract-title-description.pl

On peut alors extraire les titres et les descriptions, cependant, il faut faire fichier par fichier.

Voici une partie de la sortie du programme :

sortie-title-description.txt

De ce fait, on utilise un script plus complet qui permet d'extraire les titres et descriptions dans un fichier XML d'une rubrique sur toute l'année.

Voici une partie du script plus complet en PERL pour l'extraction:

parcours-arborescence-fichiers-debut-2018.pl

Voici les fichiers de sortie générés par le programme pour les 3 rubriques sélectionnées:

sortie_3208.txt

sortie_3208.xml


sortie_3214.txt

sortie_3214.xml


sortie_3246.txt

sortie_3246.xml